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基于 LDA 模型 的 移动 投诉 文本 热点 话题 


识别 
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摘要 : 【 目的 ] 运用 中 文 信 息 处 理 和 话题 识别 与 追踪 的 方法 ， 从 大 量 移动 投诉 文本 中 找 出 有 价值 的 信息 。[ 方法 】 


从 分 析 投 诉 文本 的 特点 入 手 , 使 用 k-means 先 对 文本 聚 类 


。 利 用 LDA 对 每 个 类 进行 建 模 ,提取 话题 , 并 从 词 频 、 


词 跨度 和 词 长 三 方面 计算 每 个 话题 中 词 的 权 值 , 把 权重 最 大 的 词 作为 该 话题 的 标签 并 计算 每 个 话题 的 文档 分 
布 概率 均值 。 对 具有 相同 标签 的 话题 ， 先 按照 均值 最 大 的 原则 去 掉 重 复 标 签 话题 , 再 对 所 有 话题 计算 文档 支持 
K, 并 将 文档 支持 率 作为 话题 的 热度 ,通过 热度 区 分 热点 话题 和 一 般 话 题 。[ 结果 】 对 投诉 文本 进行 时 间 上 的 建 
模 ,通过 对 比 一 般 话题 和 热点 话题 , 得 出 热点 话题 的 支持 文档 率 至 少 是 一 般 话题 的 3 倍 , 支持 文档 率 变化 趋势 也 
比 一 般 话 题 高 , 说 明 本 文 算法 是 有 效 的 。【 局 限 ] 没有 考虑 到 话题 之 间 的 语义 关系 。[【 结论 】 利 用 LDA 模型 对 移 
动 投诉 话题 检测 初探 的 方法 是 比较 合理 和 有 效 的 ,对 今后 此 领域 的 研究 具有 一 定 的 借鉴 意义 。 
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随 着 互联 网 的 日 益 普及 和 通信 技术 的 不 断 发 展 ， 
上 网 人 群 日 益 增 多 , 尤其 是 移动 端 , 通过 手机 玩 游戏 、 
刷 微 博 、 选 贴吧 、 看 新 闻 的 人 越 来 越 多 。 各 大 电信 运 
营 商 看 到 了 其 中 的 商机 , 为 了 满足 客户 的 需求 、 拓 宽 
自己 的 业务 、 抢 占 市 场 份额 , 他 们 推出 了 各 种 优惠 政 
策 以 吸引 用 户 ， 随 着 用 户 量 不 断 上 升 , 投诉 量 也 日 益 
剧 增 , 因此 如 何 有 效 地 处 理 投诉 文本 成 为 了 各 界 关注 
的 焦点 。 其 实在 大 量 的 投诉 中 有 很 多 大 家 关注 的 热点 
话题 ， 比 如 “宽带 ”"“ 流 量 ”"“ 扣 费 ” 等 等 ， 如 果 可 以 从 
中 发 现 话题 ,并 对 话题 进行 追踪 , 根据 话题 的 变化 趋 
势 了 解 相 关 业 务 的 受理 情况 、 了 解 用 户 的 关注 点 ， 从 
而 对 症 下 药 ， 就 能 提高 处 理 投诉 的 效率 。 因 此 对 投诉 
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文本 进行 话题 挖掘 就 显得 十 分 重要 。 

与 新 闻 报道 相 比 较 , 移动 投诉 文本 的 结构 更 加 复 
杂 且 短小 , 这 加 大 了 提取 话题 的 难度 。 本 文 针对 移动 
投诉 文本 , 应 用 “话题 识别 ”的 相关 知识 ， 从 中 识别 投 
诉 文本 中 的 热点 话题 。 


2 相关 工作 


话题 识别 和 跟踪 研究 中 , LDAU 主 题 模型 是 近年 
来 文本 挖掘 领域 的 一 个 热门 研究 方向 ， 主 题 模型 具有 
优秀 的 降 维 能 力 、 针 对 复杂 系统 的 建 模 能 力 和 良好 的 
扩展 性 。 利 用 主题 建 模 挖掘 出 的 主题 可 以 帮助 人 们 理 
解 海量 文本 背后 隐藏 的 语义 ,也 可 以 作为 其 他 文本 分 
析 方 法 的 输入 ,完成 文本 分 类 、 话 题 检 测 、 文 本 自动 
摘要 和 关联 判断 等 多 方面 的 文本 挖掘 任务 。 
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LDA 主题 模型 具有 优秀 的 降 维 能 力 和 扎实 的 概 
率 理论 基础 ,使 其 在 短文 本 主题 挖掘 中 具有 很 大 的 潜 
力 。 近 年 来 , 为 了 提高 LDA 模型 主题 挖掘 的 效率 和 准 
确 性 ,出现 很 多 对 LDA 模型 的 改进 方法 ,可 归纳 为 纵 
向 的 过 程 扩展 和 横向 的 模型 扩展 外 ,一 方面 , 针对 微 博 
文本 篇 幅 较 短 的 局 限 ， 基于 操作 过 程 扩 展 的 方法 考虑 
将 微 博文 本 进行 适当 的 聚集 , 这 样 短文 本 被 聚集 成 相 
对 适合 挖掘 的 长 文本 。Weng 等 中 采用 同一 微 博 用 户 的 
所 有 微 博文 本 聚集 成 一 篇 长 文档 的 策略 , 利用 LDA 模 
型 进行 主题 挖掘。Hong 等 外 提出 基于 训练 的 用 户 模式 
建 模 和 基于 术语 模式 建 模 。 男 一 方面 ,为 了 适应 微 博 
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短文 本 的 主题 挖掘 ,规避 短文 本 数据 噪声 大 的 影响 ， 
提出 基于 模型 扩展 优化 的 LDA 模型 ， 典 型 的 改进 模 
型 包括 ATMP!, 、TwitterLDAIJ , Labeled-LDAU! 、 
MB-LDAP!, HLDAPIIJÀ& MA-LDA'!, Zhao pjg 
出 Twitter-LDA 模型 挖掘 整个 Twitter 文本 中 具有 代表 
性 的 文本 主题 。Ramage 等 "提出 Labeled-LDA, 一 种 
基于 标签 的 主题 模型 。 张 晨 逸 等 外 提出 微 博 生成 模型 
MB-LDA, 该 模型 综合 考虑 了 微 博 的 文本 关联 关系 和 
联系 人 关联 关系 , 这 两 种 关系 可 以 辅助 微 博 的 主题 挖 
据 。 文 献 [2, 11] 对 LDA 模型 的 纵向 和 横向 改进 方法 进 
行 了 比较 总 结 ， 如 表 1 所 示 。 


表 1 LDA 话题 模型 建 模 方法 比较 口 
模型 扩张 方式 实现 方式 优势 局 限 性 
LDA" x 直接 使 用 Xu mom 
基于 用 户 聚 集 LDAD 。 JEVE 。 文本 聚集 解决 短文 本 问题 只 限 微 博 用 户 层面 建 模 , 需要 人 工 干 预 
"E 文本 聚集 、 解决 短文 本 问题 需要 事先 训练 和 人 工 干预 若 要 更 新 
H PIJI E H [4] nap nd H E > 
基于 训练 USER 模式 。 HEVE 。 分 步 求解 简化 推导 模型 需 重新 训练 基 
ATM" 模型 扩展 。 文本 聚集 iHe ics I 只 限 微 博 用 户 层面 主题 建 模 
ATM 扩展 模型 "9 模型 扩展 。 文本 聚集 让 决 短文 本 问题 帖子 层面 主题 少 且 不 理想 
- 文本 聚集 解决 短文 本 问题 和 高 频 l 
" [6, 13] 3 : > AN 只 能 对 应 一 个 主题 
Twitter-LDA 模型 扩展 引入 背景 模型 词汇 问题 个 帖子 只 能 对 应 一 个 主题 
Labeled-LDAP- "1 模型 扩展 ”引信 标签 信息 提高 主题 可 解释 性 要 求 文本 具有 足够 的 标签 信息 
— -— RESORT, 提高 mr 
MB-LDAP! 模型 扩展 引入 结构 化 信息 主题 可 解释 性 主要 针对 会 话 类 和 转发 类 中 文 微 博 
— 
HLDAP 模型 扩展 ”引信 微 博 评论 数 、 是 高 主题 可 解释 性 。 主要 针对 具有 高 评论 数 和 转发 数 的 微 博 
转发 数 等 特征 量 
解决 短文 本 问题 提高 ER 
MALDAN% 模型 扩展 ”引入 时 间 特 征 决 短文 本 问题 ， 提 高 主要 适应 于 短 时 间 内 被 普遍 关注 的 微 博 


主题 可 解释 性 


本 文 鉴于 LDA 模型 本 身 的 优点 和 在 短文 话题 识 
别 上 的 优势 ， 又 考虑 到 投诉 文本 与 微 博 短 文本 不 一 
样 , 微 博 一 般 围绕 一 个 话题 展开 , 包含 评论 、 转 发 等 
额外 信息 ; 但 投诉 文本 没有 一 个 明确 的 话题 , 仅仅 是 
客户 的 一 条 信息 反馈 , 文本 结构 简短 ,内容 复 杂 。 因 
此 , 本 文 提出 一 种 基于 LDA 模型 的 移动 投诉 文本 热 
点 话题 识别 方法 。 首 先 对 投诉 文本 聚 类 ,每 一 类 使 用 
Gibbs 抽样 方法 进行 话题 的 抽取 ; 然后 对 抽取 的 话题 
进行 一 系列 的 处 理 ; 最 后 通过 计算 话题 的 文档 支持 
率 得 出 热点 话题 ,并 在 实验 部 分 对 本 文 方法 进行 了 
验证 。 


数据 分 析 与 知识 发 现 


3 ”基于 LDA 模型 的 移动 投诉 文本 热点 话题 
识别 


3.1 文本 聚 类 

由 于 投诉 文本 跟 新 闻 报道 不 一 样 ， 它 的 形式 简短 ， 
单条 文本 涵盖 内 容 信 息 很 少 。 为 了 更 好 的 提取 话题 ， 
首先 将 文本 进行 聚 类 , 这 样 每 一 类 中 的 投诉 文本 不 仅 
存在 着 共性 , 而 且 内 容 比 较 充 实 , LDA 模型 抽取 话题 
表达 效果 就 会 更 好 ,针对 性 更 强 。 

本 文采 用 k-means HITR, k-means 是 经 典 划 


分 聚 类 算法 。 这 种 方法 简单 快速 , 在 对 文档 进行 聚 类 


前 需要 通过 值 来 确定 复数 量 。 主 要 过 程 是 从 含 n 个 
文本 的 文档 集中 随机 选择 k 个 文本 作为 初始 的 聚 类 中 
D, 并 通过 计算 得 到 其 他 文本 到 每 个 簇 中 心 点 的 距离 ， 
将 文档 划分 到 离 它 最 近 的 篮 中 , 用 迭代 的 方式 不 断 重 
复 上 述 过 程 , 直到 满足 准则 函数 或 划分 过 程 中 相 邻 簇 
的 中 心 不 再 发 生变 化 为 止 。 通 过 不 断 的 迭代 过 程 增加 
簇 内 的 紧凑 性 ,降低 簇 间 的 相似 性 。 图 1 为 本 文 聚 类 
的 流程 。 


自 定义 词典 


I 
EE [EE 
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特征 词 提取 


p 构建 构建 
文本 按 类 保存 | qe| qoc emm US qum 竺 入 空间 
图 1 聚 类 流程 


使 用 k-means 聚 类 好 后 , 将 投诉 文本 按 各 类 分 别 
存 于 一 个 Txt 文件 中 。 
3.2 LDA 模型 话题 抽取 

LDADI 模 型 中 对 话题 的 定义 为 : 一 组 语义 上 相关 
的 词 及 这 些 词 在 该 话题 上 的 分 布 概率 。 由 于 无 法 对 
LDA 模型 的 未 知 参 数 进行 求解 , 在 这 里 使 用 Gibbs 
Sampling 的 方法 近似 求解 , Gibbs Sampling09 通 过 迭代 
采样 达到 通 近 真实 结果 的 效果 ,其 关键 点 在 于 对 当前 
单词 采样 概率 的 求解 ， 如 公式 (DO 所 示 。 


享用 词 词典 


CIF +a C 十 
P( zf) | za, w) =% x i r— E (1) 
IIcz +Ka [|C «v8 
Ka KZ 


其 中 ，vw 为 词 表 个 数 ; 有 为 话题 数目 ; CH 为 计 
数 和 矩阵 CY 中 第 立项 ,表示 第 j 个 话题 中 第 i 个 词 出 现 
RAG CPE 为 计数 矩阵 CY 中 的 第 dj 项 , 表示 第 d 
篇 文档 中 , 第 j 个 话题 包含 的 词 的 数目 。 通 过 Gibbs 
Sampling 方法 , 可 以 得 到 9、y 的 后 验 值 ， 如 公式 (2) 
和 公式 (3) 由 所 示 。 
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VK 
Cj + Pp 
v 
IIo? +v 
kl 


在 推导 参数 之 前 , 需要 预先 将 话题 的 数目 K 设置 
Af, 数值 越 大 则 话题 越 多 , 话题 的 颗粒 度 越 小 , 反之 
亦 然 -K 的 取 值 对 LDA 模型 文本 提取 和 拟 合 性 能 影响 
较 大 , 其 最 佳 的 确定 可 以 通过 两 种 方法 : 一 种 是 词汇 被 
选中 的 概率 pw 另 一 种 是 困惑 度 perplexity) "^, 
本 文 用 困惑 度 确定 K, 困惑 度 越 小 ,话题 的 拟 合 性 就 
越 好 。 困 惑 度 计算 如 公式 (4)" "所 示 。 


> log(p(d;)) 
perlexity = exp(- -—.————) (4) 


2N; 
i=l 


其 中 ，M 为 文本 数 ，N; 为 文本 di 的 长 度 ( 即 单词 个 
数 ), p(q) 为 LDA 模型 产生 文本 4 的 概率 。 

3.3 ”热点 话题 识别 

使 用 Gibbs Sampling 抽样 可 以 得 到 “话题 -词语 ” 
和 “文档 -话题 "的 概率 分 布 。 对 于 “话题 -词语 "分布 , 每 
个 话题 z 下 分 布 着 词语 w 和 它 在 此 话题 中 的 概率 
plz), 话题 z= iw, pm 12). Qv. pO; | 2. 
(w,, pCw, | 2) 对 于 “文档 -话题 ”分布 , 每 个 文档 d 下 
分 布 着 k 个 话题 的 概率 分 布 , 形 如 DD = (P(z, | d),--- 
P(z; |d), P(z, 14)}。 

使 用 Gibbs Sampling 抽取 的 话题 数量 会 比较 多 ， 
而 且 有 些 话题 可 能 表达 的 意思 十 分 接近 ， 有些 话题 几 
乎 不 能 表达 文档 的 意思 , 所 以 要 进行 话题 选取 。 话 题 
的 选取 就 要 用 到 上 面 的 “话题 -词语 "和 “文档 -话题 ”的 
概率 分 布 。 经 过 话题 选取 之 后 , 确定 了 文本 的 全 局 话 
AL 然后 从 全 局 话题 中 发 现 热 点 话题 。 

(1) 选取 话题 标签 词 

文本 经 过 聚 类 , 得 到 了 HMA, 每 个 类 使 用 Gibbs 
Sampling 得 到 了 若干 个 隐 含 的 话题 ,每 个 话题 下 分 布 
着 n 个 话题 相关 的 词 , 对 每 个 话题 中 的 词 计算 其 在 该 话 
题 所 在 类 文本 中 的 词 频 (coun 四 、 词 跨度 (cover) 和 词 的 长 
HE(length), 则 该 词 的 权 值 (weigh) 计 算 公 式 如 (5) 所 示 。 

weight = count + length + cover (5) 

为 了 不 让 词 频 、 词 的 长 度 和 词 跨度 的 值 相差 太 大 ， 
使 三 者 在 权 值 中 的 比重 相同 , 分 别 对 其 进行 了 量化 ， 
具体 计算 如 公式 (6)- 公 式 (8) 所 示 。 


i 


9; 二 (3) 
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count — ECCE (6) 
count(i) 4-1 
length — ERE e (7) 
max(/ength( j)) 
— last(i) — first(1) (8) 
ctotal 


HEP, count(i) 为 词 在 文档 出 现 的 次 数 ， length) A 
词 的 长 度 ，max(ensgth(D) 为 文档 中 词 的 最 大 长 度 ， 
last(i) 为 词 在 文档 中 最 后 一 次 出 现 的 位 置 , first(i) 为 词 在 
文档 中 第 一 次 出 现 的 位 置 ，ctotal 是 文档 中 最 后 一 个 词 
的 位 置 。 计 算 完 话题 中 词 的 权 值 后 , 选 出 权 值 最 大 的 词 
作为 该 话题 的 标签 词 。 然 后 存 人 数据 库 , 数据 表 的 字段 
名 为 标签 词 (tag)、 话 题 (topic) 和 话题 所 表示 的 类 ()。 

(2) 计算 话题 的 文档 概率 分 布 均值 

通过 Gibbs Sampling 对 每 个 类 抽样 后 , 各 自得 到 
一 个 "文档 -话题 "概率 分 布 矩阵 ,矩阵 表达 式 如 公式 


(9) 所 示 。 
Z gs Z; iis Zy 
d, | p(z |di) p(z; |d)) p(z,|d) 
(9) 
d, | p(z |d;) p(z; |d;) p, |d;) 
d, p(z |d,) ad p(z |d,) 125 p(z,1d,) 


PRERA Kk MEA m 条 文档 , 每 行为 个 话 
题 在 一 条 文档 中 的 分 布 概率 , 每 列 为 一 个 话题 在 m 个 文 
档 中 的 分 布 概率 。 通 过 上 面 的 矩阵 概率 分 布 就 可 以 得 出 
每 个 话题 的 分 布 概率 均值 ， 具体 计算 如 公式 (10) 所 示 。 

X pld) 
AVG(Z,) = £———— (10) 
m 

(3) 话题 选取 

得 到 了 话题 的 标签 词 和 话题 的 文档 概率 分 布 均值 
后 , 构建 话题 矩阵 如 公式 (1D) 所 示 。 


topic, :| topic, tag avg(topie) … H, 

topic, :| topic, tag avg(topi) … H, 

topic, :| topic, tag >- avg(topic,) … Hrx| 
(11) 
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矩阵 中 一 共有 nn 个 话题 (topic), topic; tag 为 topic; 
的 标签 词 ，avg(iopic) 为 topic; 的 文档 概率 分 布 均值 ， 
Hj, Hj fll Hx 属于 文本 类 集合 H。 由 于 话题 标签 词 存 
在 相同 的 情况 , 所 以 先 以 话题 标签 词 分 组 。 认 为 同一 
组 中 的 话题 表达 的 意思 相近 , 如 果 一 组 中 有 多 个 话题 
选取 其 中 分 布 概率 均值 最 大 的 话题 ,将 其 删除 。 接 下 
来 按 每 个 话题 的 均值 排序 ， 去 除 均值 极 小 的 话题 ， 
为 均值 小 的 话题 不 能 很 好 地 表达 文档 的 意思 , 剩 下 的 
话题 就 是 文档 的 全 局 话题 。 

(4) 热点 话题 识别 

根据 LDA 模 型 的 原理 , 每 篇 文档 都 是 由 数 个 不 同 
的 话题 按照 一 定 的 比例 生成 的 。 这 里 假设 一 条 经 过 预 
处 理 的 投诉 文本 中 有 不 少 于 话题 z 中 百 分 之 儿 的 词 ， 
则 认为 这 条 投诉 文本 是 话题 z 的 支持 文档 。 之 后 使 用 徐 
佳 俊 等 中 的 方法 计算 文档 话题 支持 率 ， 如 公式 (12) 
所 示 。 如 果 在 一 个 时 间 段 内 , 话题 的 支持 文档 的 数量 
或 者 文档 话题 支持 率 超 过 一 个 设 定 的 阔 值 , 那么 这 个 
话题 就 是 热点 话题 。 


S(z,t) = Er (12) 
| D' | 

其 中 , z 表示 话题 , t 表示 时 间 段 ，| D; | 为 时 间 段 ; 
内 话题 z 的 所 有 支持 文档 数 ，| D' | 为 时 间 段 t 内 所 有 
文档 数量 。 
通过 箱 型 图 分 析 中 进行 话题 支持 文档 数 或 者 文档 
支持 率 阔 值 的 设 定 ， 箱 型 图 的 结构 如 图 2 所 示 。 
上 边缘 


一 上 四 分 位 数 


一 一 一 一 一 下 四 分 位 数 


SJ = 
ya ' 


. 下 边缘 
图 2 箱 型 图 结构 [] 

箱 型 图 用 来 分 析 数据 的 分 布 情况 和 识别 异常 值 。 
从 图 2 中 可 以 看 出 数据 分 为 4 个 部 分 , 位 于 上 边缘 之 
上 和 下 边缘 之 下 的 值 为 异常 值 ,本文 不 作 考虑 。 这 里 
将 上 四 分 位 数 这 个 值 设 定 为 支持 文档 数 的 闷 值 ， 如 果 
某 个 话题 的 支持 文档 数 的 值 超过 这 个 阐 值 ,该 话题 为 
热点 话题 ,一 方面 , 箱 形 图 的 绘制 依靠 实际 数据 ,不 需 
要 事先 假定 数据 服从 特定 的 分 布 形式 , 没有 对 数据 作 


任何 限制 性 要 求 , 它 只 是 真实 直观 地 表现 数据 形状 的 
本 来 面貌 ; 男 一 方面 , 箱 形 图 判断 异常 值 的 标准 以 四 
分 位 数 和 四 分 位 距 为 基础 ， 四 分 位 数 具有 一 定 的 耐 抗 
性 , 多 达 25% 的 数据 可 以 变 得 任意 远 而 不 会 很 大 地 扰 
动 四 分 位 数 ， 所 以 异常 值 不 能 对 这 个 标准 施加 影响 ， 
箱 形 图 识别 异常 值 的 结果 比较 客观 。 


4 实验 及 结果 分 析 


4.1 数据 来 源 

本 文 所 使 用 的 数据 是 某 电信 公司 投诉 业务 部 提供 
的 , 实验 部 分 使 用 2015 年 3 月 -2015 年 4 月 的 投诉 文 
本 , 其中, 3 月 份 有 20000 多 条 , 4 月 份 有 50 000 多 条 ， 
前 者 用 于 训练 提取 话题 和 识别 热点 话题 , 后 者 用 于 验证 
热点 话题 抽取 的 效果 。 分 词 使 用 的 是 结巴 分 词 工具 请) 
停 用 词 词典 为 哈尔滨 工业 大 学 的 停 用 词 词典 ?1 
4.2 ” 语 料 预 处 理 

(1) 由 于 现 有 的 词典 无 法 完全 识别 投诉 业务 中 的 
专业 术语 和 业务 词 ,为 了 提高 分 词 效果 , 在 某 电 信 公 
司 业务 部 员工 的 协助 下 手动 建立 了 一 个 自 定义 的 分 词 
词典 , 词典 一 共 包 含 了 1 600 个 重点 业务 关键 词 , 由 三 
元 组 (词语 , 词 频 , 词性 ) 组 成 ,其 中 词性 标注 集 采用 的 
是 中 国 科学 院 的 汉语 文本 词性 标注 集 。 三 元 组 中 各 个 
属性 以 空格 分 开 , 每 个 三 元 组 独占 一 行 , 保存 在 Txt 
文件 中 。 词 典 实例 如 表 2 所 示 。 

表 2 词典 实例 表 


词语 词 频 词性 
短信 费用 1 000 n( 名 词 ) 
欠 费 停机 2 000 n 
上 网 费用 2 000 n 
有 线 宽带 2 000 n 
畅 玩 游戏 包 500 n 
爱 动 漫 信息 费 3 000 n 
夜间 流量 28 641 n 


(2) 使 用 正则 表达 式 去 除 投诉 文本 中 特有 的 短语 ， 
例如 “手机 号 码 ”、“ 工 单 号 ”等 由 字母 和 数字 组 成 的 字 
符 串 。 

(3) 引入 自 定 义 词典 , 使 用 结巴 分 词 工具 进行 分 
词 并 标注 词性 , 保留 名 词 ,动词 等 重要 的 词语 ,并 去 除 
停 用 词 。 

(4) 去 除 无 关 的 高 频 词 , 由 于 投诉 文本 是 由 专业 
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的 服务 人 员 使 用 软件 按照 模板 格式 录入 的 , 所 以 会 有 
很 多 无 法 反映 语义 信息 的 重复 词 ， 例 如 “诉求 " “用 户 
来 电表 示 ”“ 客 户 资产 编号 "“ 请 处 理 "“ 谢 谢 "等 , 预 
处 理 的 流程 如 图 3 所 示 。 


UJ 


(引入 自 定义 词典 ) 


1 
分 词 并 标注 词性 


GE 
保留 重要 词性 的 词 
4 
保存 处 理 结果 


图 3 预 处 理 的 流程 图 
示例 如 表 3 所 示 。 


RI 语 料 预 处 理 效果 表 


诉求 : 用 户 来 电表 示 自 己 的 手机 (18067938538 ) 自 己 很 

少 上 网 , 为 什么 在 (2015-03 ) 月 份 的 手机 上 会 超出 

(210.38 ) 兆 的 上 网 流量 ,前 台 解 释 不 使 用 是 不 会 产生 
原始 ”这 个 上 网 流量 ,前台 建议 用 户 手 机 不 使 用 的 时 候 把 数 
文本 ” 据 流 量 的 开关 关闭 ,用 户 可 以 登录 网 厅 查 询 上 网 的 详 
单 ， 前 台 解 释 用 户 不 认可 ,用户 表示 自己 没有 使 用 F 
生 的 流量 费用 自己 也 是 不 予 承担 ,烦请 处 理 谢谢 , 客 
户 资 产 编号 : 1-14PTKKXU 


手机 上 网 月 份 手机 超出 上 网 流量 前 台 解释 上 


去 除 无 用 高 频 记 


< 


E 


处 理 结 


处 理 ”网 流量 前 台 建议 手机 数据 流量 开关 关闭 登录 
结果 网 厅 查询 上 网 详 单 前 台 解释 用 户 不 认可 流量 
费用 不 予 承担 


43 R 类 

通过 采用 模糊 k-means RÉ, k 设置 为 200， 并 对 
聚 类 结果 中 每 类 的 文本 条 数 进行 了 统计 ， 其 中 条 数 最 
少 为 45 条 , 最 多 的 有 362 条 。 上 有 具体 如 表 4 所 示 。 


表 4 文本 类 分 布 表 


类 中 文本 条 数 区 间 类 个 数 
[0, 50] 20 
[51, 100] 62 
[101, 200] 88 
[201, +0) 40 


4.4 全 局 话题 抽取 

实验 利用 Gibbs Sampling 方法 进行 参数 推理 , 使 
用 基于 Java 的 Gibbs Sampling 开源 工具 包 (JGibbLDA- 
v.1.0)C， 模 型 参数 a、B 默认 值 为 30 和 0.1， 每 个 话 
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题 下 的 词语 个 数 设置 为 10。 

对 于 话题 个 数 这 里 使 用 公式 (4 进行 计算 ,并 
对 生成 的 话题 进行 人 工 评判 。 根 据 每 类 中 文本 的 条 数 ， 
最 终 认 定 条 数 在 [0，50] 区 间 内 的 类 , 值 设置 为 5; 条 
数 在 [51, 100] 区 间 内 的 类 , 磊 值 设 置 为 10; 条 数 在 [101， 
200] 区 间 内 的 类 , 值 设置 为 20; 条 数 在 [201, 300] 区 间 
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通过 话题 的 选取 ， 总 共 抽 取 了 5 130 个 话题 ， 
然后 对 每 个 话题 提取 它 的 标签 词 ， 计算 文档 概率 均 
E, 去除 均值 极 小 的 话题 , 保留 相同 标签 词 中 均值 
最 大 的 话题 ， 剩 下 299 个 全 局 话题 ,示例 结果 如 图 5 
所 示 。 


内 的 类 ,大 值 设置 为 30; 条 数 在 [301, +oo ) 区 间 内 的 类 ， 
k EREN 40, 

Zt a p Mk REAA, 对 每 类 进行 话题 的 抽取 ， 
得 到 ”话题 -词语 ?和 “文档 -话题 "的 概率 分 布 , 如 表 5 
和 图 4 所 示 。 


表 5 话题 -词话 示例 表 
话题 词语 及 词 概率 
金额 0.494 号码 0.056 ”宽带 0.042 接 到 0.028 


Topic Oth: 核实 0.028 收费 0.015 订单 0.015 114 0.015 
显示 0.015 退 订 0.015 


违约 金 0.228 不 认可 0.122 无 0.046 对 此 0.046 
Topic 1th: 兆 纳 金 0.031 FE 0.031 用 户 不 认可 0.031 
费用 0.031 通知 0.031 收费 0.016 
违约 金 0.092 返利 0.077 翼 支 付 0.062 投诉 0.062 
Topic 2th: 成 功 0.031 恤 支 付 加 油 0.031 支付 0.031 

收 到 0.031 营业 0.031 办 理 0.031 

滞纳金 0.33 RE 0.101 电话 0.044 ET] 0.030 
Topic 3th: 违约 金 0.030 加 油 0.030 平台 0.030 前 台 0.015 
怎么 回 事 0.015 出 票 0.015 
减免 0.248 前 台 0.087 解释 0.087 交易 0.062 
Topic 4th: 强烈 要 求 0.038 账户 0.025 情况 0.025 

营业 厅 0.025 无 效 0.013 号 用 0.013 


10.2222222222222222 0.2222222222222222 0-1527777777777778 0.2222222222222222 0.18055555555555555 
20.16923076923076924 0.23076923076923078 0.26153846153846155 0.16923076923076924 0.16923076923076924 
30.2037037037037037 0.2037037037037037 0.18518518518518517 0.2037037037037037 0.2037037037037037 
40.1864406779661017 0.1694915254237288 0.288135593220339 0.1694915254237288 0.1864406779661017 
50.19642857142857142 0.19642857142857142 0.17857142857142858 0.21428571428571427 0.21428571428571427 
60.203125 0.1875 0.234375 0.1875 0.1875 
70.21183846153846154 0.19230769230769232 0.19230769230769232 0.21153846153846154 0.19230769230769232 
80.21311475409836064 0.21311475409836064 0.18032786885245902 0.19672131147540983 0.19672131147540983 
50.19298245614035087 0.21052631578947367 0.17543859649122806 0.19298245614035087 0.22807017543859648 
00.2 0.21666666666666667 0.18333333333333332 0.21666666666666667 0.18333333333333332 

10.18556701030927836 0.1134020618556701 0.20618556701030927 0.20618556701030927 0.28865979381443296 

20.19642857142857142 0.17857142857142858 0.19642857142857142 0.19642857142857142 0.23214285714285715 

130.2 0.21666666666666667 0.2 0.18333333333333332 0.2 
140.2 0.2 0.18181818181818182 0.21818181818181817 0.2 
50.2037037037037037 0.2037037037037037 0.18518518518518517 0.2037037037037037 0.2037037037037037 
60.22807017543859648 0.21052631578947367 0.19298245614035087 0.17543859649122806 0.19298245614035087 

70.203125 0.203125 0.21875 0.203125 0.171875 

50.18333333333333332 0.21666666666666667 0.16666666666666666 0.21666666666666667 0.21666666666666667 
130.21153846153846154 0.19230769230769232 0.19230769230769232 0.21153846153846154 0.19230769230769232 

200.16923076923076924 0.2153846153846154 0.18461538461538463 0.2 0.23076923076923078 

:0.19642857142857142 0.19642657142857142 0.17857142857142858 0.19642857142857142 0.23214285714285715 

220.21818181818181817 0.18181818181818182 0.18181818181818182 0.2 0.21818181818181817 

230.21153846153846154 0.19230769230769232 0.19230769230769232 0.21153846153846154 0.19230769230769232 

40.1896551724137931 0.1724137931034483 0.1896551724137931 0.20689655172413793 0.2413793103448276 

50.21153846153846154 0.19230769230769232 0.19230769230769232 0.21153846153846154 0.19230769230769232 
60.2 0.2 0.21818181818181817 0.18181818181818182 0.2 

270.1935483870967742 0.20967741935483872 0.1935483870967742 0.22580645161290322 0.1774193548387097 

|28 0.20689655172413793 0.20689655172413793 0.1724137931034483 0.1896551724137931 0.22413793103448276 

50.23333333333333334 0.21666666666666667 0.2 0.16666666666666666 0.18333333333333332 

0.21428571428571427 0.17857142857142858 0.19642857142857142 0.21428571428571427 0.19642857142857142 
:0.19402985074626866 0.208955223880597 0.22388059701492538 0.1791044776119403 0.19402985074626866 


图 4 文档 -话题 示例 
K 5 和 图 4 是 某 个 类 的 “话题 -词语 "和 “文档 - 话 
题 ” 的 概率 分 布 , 表 4 中 有 每 个 话题 的 10 个 话题 词 及 
其 词语 的 话题 分 布 概率 p(wlz), 图 4 中 每 行为 5 个 话题 
在 一 条 文档 中 的 分 布 概率 , 每 列 为 一 个 话题 在 31 条文 
档 中 的 分 布 概率 。 


MM ENSAR 


t topic topic ~ theta 
套餐 宽 计 /工作 人 员 /用 户 不 认可 /营业 厅 / 工 单 / 国 话 称 机 /优惠 /套餐 /享受 / 称 机 0.20845 
Es Peli eS DER EC] ER SFO AR SR FR ER 0.20784 
mee 违约 全 /返利 / 珊 支 付 /投诉 /成 功 / 愤 支 付 加 油 /支付 / 收 到 /营业 /办 理 0.20159 
收取 前 台 / 收 取 / 办 理 /告知 /师傅 /外 线 /后 台 / 移 机 /号 码 / 0.20141 
平板 平板 /办 理 / 杭 州 /告知 /核实 /支付 /强烈 要 求 / 拿 到 /发 现 / 0.20026 
称 机 称 机 /收取 /核实 / 套 均 /减免 /投诉 / 划 用 不 认可 /业务 /区 域 /无 效 0.20024 
分 组 分 组 /公众 /广电 /频道 / 改 加 /节目 /高 清 /机 硕 盒 /后 台 /故障 0.20015 
减免 减免 /前 台 / 解 释 / 交 易 / 强 列 要 求 /账户 /情况 /营业 厅 / 无 效 /号 用 0.19944 
金额 金额 /号 码 / 宽 膏 / 接 到 /核实 /收费 /订单 // 旦 示 / 运 订 0.19836 
发 短信 发 短信 /手机 /对 此 /运费 /功能 / 收 到 /上 网 /联系 电话 /地 址 /更 换 0.19820 
上 邮箱 邮箱 /号 码 /无 效 /功能 /短信 /账号 /用 户 不 认可 /建议 /亚洲 /公司 0.19771 
服务 质量 服务 质量 /办 理 /对 此 /监督 /答应 / 工 单 /导致 /前 期 /游戏 / 免 壹 0.19765 


图 $ 话题 示例 


其 中 ,t topic 为 话题 标签 , topic 为 话题 下 的 分 布 词 
语 , theta 为 话题 在 文档 中 分 布 概率 均值 。 
4.5 热点 话题 识别 实验 结果 分 析 

根据 第 3 节 的 方法 , 假设 一 条 经 过 预 处 理 的 投 
诉 文本 中 有 不 少 于 话题 z 中 一 定 比 例 的 词 ， 则 认为 
这 条 投诉 文本 是 话题 z 的 支持 文档 。 这 里 设置 为 
30%， 因 为 实验 中 每 个 话题 的 词语 个 数 为 10， 即 每 
条 预 处 理 后 的 投诉 文本 中 词语 与 话题 中 词语 的 交集 
大 于 等 于 3 个 。 通 过 分 析 话 题 支持 文档 数 的 箱 型 图 
如 图 6 所 示 。 得 出 结果 如 表 6 所 示 。 
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图 6 支持 文档 数 箱 型 图 


通过 上 述 分 析 , 这 里 将 支持 的 文档 数 不 低 于 3 000 
的 话题 定义 为 热点 话题 。 由 于 话题 个 数 有 299 个 , 文中 
分 别 选取 了 10 个 热点 话题 和 10 个 一 般 话 题 进行 说 明 ， 
如 表 7 所 示 。 


表 6 支持 文档 数 的 数值 分 布 


相关 内 容 数值 

话题 个 数 299 

支持 文档 数 均值 1760.81 

最 大 值 8076 

最 小 值 3 

中 位 数 1288 

%25 分 位 数 424 

%50 分 位 数 1288 

%70 分 位 数 2628.5 

表 7 话题 对 比 表 
热点 话题 支持 文档 数 一 般 话 题 支持 文档 数 

账单 8 070 维修 1 643 
用 户 不 认可 6 797 包月 费 1 058 
副 卡 6733 违约 金 526 
短 号 6 408 上 门 移 机 428 
路 由 需 6 342 服务 质量 349 
数据 流量 5 360 一 号 双 机 249 
国内 上 网 4 848 ESAN] 240 
线路 4 262 租用 205 
补 卡 4341 手机 信号 55 
宽带 3 225 彩铃 48 


从 表 7 中 可 以 看 出 移动 用 户 对 “上 网 ”"、“ 数 据 流 
量 *、“ 账 单 "等 比较 在 意 ,这 与 现实 中 用 户 的 关注 基 
本 符合 , 所 以 本 文 的 话题 抽取 和 热点 识别 方法 是 有 
效 的 。 

4.6 话题 测试 实验 结果 分 析 
使 用 2015 年 4 月 的 语 料 进行 测试 本 文 算法 获取 的 


热点 话题 效果 ， 先 按 表 7 中 话题 支持 文档 数 ， 从 低 至 高 
分 别 选择 三 个 热点 话题 和 三 个 一 般 话题 进行 实验 ,计算 
热点 话题 和 一 般 话题 在 2015 4E. 4 H 30 天 中 的 支持 文档 
数 , 其 变化 趋势 如 图 7 和 图 8 所 示 。 
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图 7 热点 话 支持 文档 数 变化 趋势 
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对 比 图 7 和 图 8 可 以 看 出 热点 话题 的 每 天 支持 文 
档 数 普遍 比 一 般 话题 高 ; 图 8 中 一 般 话 题 的 变化 趋势 
大 部 分 时 间 都 比较 平稳 ,有 时 也 会 出 现 急剧 的 爬升 和 
下 落 , 但 支持 文档 数 还 是 不 高 ,最 低 点 到 最 高 点 的 变 
化 幅度 不 是 十 分 明显 。 从 图 7 可 以 发 现 热点 话题 变化 
趋势 强 弱 程度 比较 明显 ， 最 低 点 到 最 高 点 的 变化 幅度 
基本 上 都 超过 100, 有 一 个 比较 突出 的 峰值 ， 总 体 都 
经 历 了 “开始 -高 潮 -衰落 "的 过 程 。 

数据 出 现 以 上 现象 , 从 现实 原因 来 说 ,是 因为 热 
点 话题 与 用 户 的 生活 息息相关 , 都 是 大 部 分 用 户 使 用 
非常 频繁 的 业务 所 出 现 的 问题 , 所 以 它 的 强度 变化 趋 
势 就 比较 明显 。 通 过 对 不 同 话题 进行 趋势 分 析 之 后 ， 
可 以 发 现 它 们 的 强度 变化 趋势 与 现实 的 实际 情况 是 比 
较 吻 合 的 , 在 一 定 程度 上 能 够 反映 本 文 算法 获取 热点 
话题 的 效果 。 


5 结 语 

通过 实验 说 明 本 文 在 基于 投诉 文本 的 热点 话题 识 
别 问题 研究 中 取得 了 一 定 成 果 。 在 预 处 理 阶 段 , 构建 
了 一 个 移动 领域 的 词典 , 对 于 今后 该 领域 的 语 料 处 理 
有 一 定 的 帮助 ; 在 热点 话题 发 现 阶段 ,使 用 了 聚 类 技 
术 , 使 得 类 中 的 文本 联系 更 加 紧密 ; 再 通过 LDA 模型 
进行 话题 抽取 , 使 话题 表达 更 加 细 粒 化 , 针对 性 更 强 ; 
在 话题 的 选取 上 , 考虑 了 话题 对 文档 表达 能 力 的 强 弱 
以 及 话题 与 话题 之 间 的 相似 性 。 

本 文 对 移动 投诉 领域 话题 识别 和 追踪 的 初探 , 还 
存在 一 定 的 不 足 , 没有 考虑 到 话题 之 间 的 语义 关系 ， 
使 用 的 都 是 统计 学 的 方法 。 接 下 将 对 此 方法 做 出 改善 ， 
把 更 多 的 语义 信息 融合 到 话题 模型 中 ; 并 对 话题 之 间 
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的 关系 进行 研究 发掘 话 题 间 的 联系 以 及 动态 获取 话 
题 的 演化 。 


[1] 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


[10] RA. 基于 微 博 的 热点 话题 发 现 [D]. 


David M B, John D L.Dynamic Topic Model[C]//Proceedings 
of the 23rd International Conference on M achine Learning. 
Pittsburgh. 2006: 113-120. 

JG, RKE. 基于 LDA 的 微 博文 本 主题 建 模 方法 研究 述 
PE]. 图 书 情 报 工 作 ，2012，56(24): 120-126. (Zhang 
Peijing, 


— 


Song Lei. Overview on Topic Modeling of 
Microblogs Text Based on LDA [J]. Library and Information 
Service, 2012, 56(24): 120-126.) 

Weng J, Lim E P, Jiang J, et al. TwitterRank: Finding 
Topic-sensitive Influential Twitterers[C]//Proceedings of the 
3rd ACM International Conference on Web Search and Data 
Mining. ACM, 2010: 261-270. 

Hong L, Davison B D. Empirical Study of Topic Modeling in 
Twitter [C]//Proceedings of the lst Workshop on Social 
Media Analytics. ACM, 2010: 80-88. 

Rosen-Zvi M, Griffiths T, Steyvers M, et al. The Author- 
Topic Model for Authors and Documents[C]// Proceedings of 
the 20th Conference on Uncertainty in Artificial Intelligence. 
AUAI Press, 2004: 487-494. 

Zhao W X, Jiang J, Weng J, et al. Comparing Twitter and 
Traditional Media Using Topic Models [C]// Proceedings of 
the 33rd European Conference on Information Retrieval. 
Springer Berlin Heidelberg, 2011: 338-349. 

Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A 
Model for Credit 
[Cl//Proceedings of the 


Attribution in 


2009 


Supervised Topic 
Multi-labeled Corpora 
Conference on Empirical Methods in Natural Language 
Processing. 2009: 248-256. 

张 晨 逸 ， 孙 建 伶 ， 丁 轶 群 . 基于 MB-LDA 模型 的 微 博 主题 
挖掘 四. 计算 机 研究 与 发 展 ，2011，48(10): 1795-1802. 
(Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic Mining for 


Microblog Based on MB-LDA Model [J]. Journal of 
Computer Research and Development, 2011, 48(10): 
1795-1802.) 


唐 晓 波 ,向 坤 . 基于 LDA 模型 和 微 博 热度 的 热点 挖掘 [J]. 
图 书 情报 工作 ,2014, 58(5): 58-63. (Tang Xiaobo, Xiang 
Kun. Hotspot Mining Based on LDA Model and Microblog 
Heat [J]. Library and Information Service, 2014, 58(5): 
58-63.) 


limi 


EN: 西南 大 学 ， 


数据 分 析 与 知识 发现 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


2014. (Zhu Ying. 
[D]. Chongging: Southwest University, 2014.) 

伍 万 坤 ， 吴 清 烈 ， 顾 锦江 . 基于 EM-LDA 综合 模型 的 电 商 
微 博 热点 话题 发 现 [J]. 现代 图 书 情报 技术 ，2015(11): 
33-40. (Wu Wankun, Wu Qinglie, Gu Jinjiang. Hot Topic 


Hot Topic Extraction from Microblogs 


Extraction from E-commerce Microblog Based on EM-LDA 
Integrated Model [J]. New Technology of Library and 
Information, 2015(11): 33-40.) 

Rosen-Zvi M, Chemudugunta C, Griffiths T, et al. Learning 
Author-topic Models from Text Corpora [J]. ACM 
Transactions on Information Systems, 2010, 28(1): Article 
No.4. 

Zhao W X, Jiang J, He J, et al. Topical Key Phrase Extraction 
from Twitter [C]//Proceedings of the 49th Annual Meeting of 
the Association for 2011: 


379-388. 


Computational Linguistics. 
Ramage D, Dumais S T, Liebling D J. Characterizing 
Microblogs with Topic Models [C]//Proceedings of the 4th 
International Conference on Weblogs and Social Media. 
2010. 

RZ, NOD, MET, 5$. K-means 算法 人 研究 综述 [中]. 现 
代 图 书 情报 技术 , 2011(5): 28-35. (Wu Suhui, Cheng Ying, 
Zheng Yanning, et al. Survey on K-means Algorithm[J]. New 
Technology of Library and Information Service, 2011(5): 
28-35.) 

朱 成 文 , 李兵 ， 胡 奎 . HMM 参数 估计 的 Gibbs 抽样 算法 []J]. 
计算 机 工程 与 应 用 , 2012, 18(18): 57-60. (Zhu Chengwen, Li 
Bing, Hu Kui. Algorithm of Parameter Estimation of HMM 


via Gibbs Sampling. Computer Engineering and Applications, 
2012, 48(18): 57-60.) 
ANS, EF. 科技 情报 分 析 中 LDA 主题 模型 最 优 主 题 数 
的 确定 方法 研究 [J]. 现代 图 书 情报 技术 ，2016，32(9): 
42-50.) (Guan Peng, Wang Yuefen. Identifying Optionan 


Topic Numbers from Sci-Tech Information with LDA 
Model[J]. New Technology of Library and Information, 2016, 
32(9): 42-50.) 

RER, MRNA, WRD, 等 . 基于 LDA 模型 的 论坛 热点 话 
题 识 别 和 追踪 [J]. 中 文 信息 学 报 , 2016, 30(1): 43-50. (Xu 
et al. LDA Based Hot 


Jiajun, Yang Yang, Yao Tianfang, 
Topic Detection and Tracking for the Forum [J]. Journal of 
Chinese Information Processing, 2016, 30(1): 43-50.) 

KRI, E, 谭 立 云 , 等 .Python 数据 分 析 与 挖掘 实战 
[M]. 机 械 工 业 出 版 社 , 2015. (Zhang Liangjun, Wang Lu, 
Tan Liyun, et al. Python Practice of Data Analysis and 
Mining [M]. Machinery Industry Press, 2015.) 


201711.01967v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


总 第 2 期 2017 年 第 2 期 


[20] jieba [CP/OL].[2016-11-23]. http://www.oschina.net/p/jieba. 王 小 华 , 黄 孝 喜 , 诺 志 群 : 论文 最 终 版 本 修订 。 
[21] 哈尔滨 工业 大 学 停 用 词 词典 [OL]. [2016-11-23]. http:// 


Harbin Institute of Technolo OL]. [2016-11-23]. http:// EN RE 
RE EP 所 有 作者 声明 不 存在 利益 冲突 关系 。 
more.datatang.com/data/13281.) 


[22] JGibbLDA: A Java Implementation of Latent Dirichlet 支撑 数据 CZ 
Allocation (LDA) Using Gibbs Sampling for Parameter 
Estimation and Inference [CP/OL]. [2016-11-23]. http:// 支撑 数据 由 作者 自 存储 , E-mail: 1484514227@qq.com。 


1] 方 小 飞 . mobiledata.zip. 移动 投诉 文本 . 
2] 方 小 飞 . dict.txt. 投诉 关键 词 词典 . 


O RRRA: 0000000000000 收 稿 日 期 : 2016-11-10 


HAR, JK, MBR: 提出 研究 思路 , 设计 研究 方案 ; 收 修改 稿 日 期 : 2016-12-18 
K, RAE, ERM: 分 析 数据 ,进行 试验 ,论文 起 草 ; 


sourceforge.net/projects/jgibblda. 


[ 
[ 


Identifying Hot Topics from Mobile Complaint Texts 


Fang Xiaofei! Huang Xiaoxi! Wang Rongbo! Chen Zhiqun! Wang Xiaohua '? 
(Department of Computer Science, Hangzhou Dianzi University, Hangzhou 310018, China) 
? (China Jiliang University, Hangzhou 310018, China) 


Abstract: [Objective] This paper aims to extract valuable information from large amount of complaint texts with the 
help of Chinese message processing technologies. [Methods] First, we analyzed the characteristics of the complaint 
texts, and then clustered them by k-means algorithm. Second, we extracted topics from the texts of each category with 
the LDA model. In the mean time, we calculated the weight of the word of each topic, as well as the mean of document 
probability distribution. Third, we analyzed topics with the highest means and used the document supporting rates to 
identify the trending ones. [Results] The document supporting rates of the topics extracted by this study was three times 
higher than the average ones. [Limitations] We did not investigate the semantic relationship among the topics. 
[Conclusions] The LDA model is an effective method to detect hot topics of the mobile complaints and indicates some 
future studies. 

Keywords: Mobile Complaints k-means Topic Detection LDA Model 
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